<!DOCTYPE HTML>
<html>

<head>
	<link rel="bookmark"  type="image/x-icon"  href="/img/logo.jpg"/>
	<link rel="shortcut icon" href="/img/logo.jpg">
	
			    <title>
    北望你的安
    </title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
    <link rel="stylesheet" href="/css/mic_main.css" />
    <link rel="stylesheet" href="/css/dropdownMenu.css" />
    <meta name="keywords" content="北望你的安" />
    
    	<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script>
	 
    <noscript>
        <link rel="stylesheet" href="/css/noscript.css" />
    </noscript>
    <style type="text/css">
        body:before {
          content: ' ';
          position: fixed;
          top: 0;
          background: url('/img/bg.jpg') center 0 no-repeat;
          right: 0;
          bottom: 0;
          left: 0;
          background-size: cover; 
        }
    </style>

			    
  


    <script src="/js/jquery.min.js"></script>
    <script src="/js/jquery.scrollex.min.js"></script>
    <script src="/js/jquery.scrolly.min.js"></script>
    <script src="/js/skel.min.js"></script>
    <script src="/js/util.js"></script>
    <script src="/js/main.js"></script>
	
</head>
    
		
<!-- Layouts -->



<!--  代码渲染  -->
<link rel="stylesheet" href="/css/prism_coy.css" />
<link rel="stylesheet" href="/css/typo.css" />
<!-- 文章页 -->
<body class="is-loading">
    <!-- Wrapper 外包 s-->
    <div id="wrapper" class="fade-in">
        <!-- Intro 头部显示 s -->
        <!-- Intro 头部显示 e -->
        <!-- Header 头部logo start -->
        <header id="header">
    <a href="/" class="logo">Krystalan</a>
</header>
        <!-- Nav 导航条 start -->
        <nav id="nav" class="special" >
            <ul class="menu links" >
			<!-- Homepage  主页  --> 
			<li >
	            <a href="/" rel="nofollow">主页</a>
	        </li>
			<!-- categories_name  分类   --> 
	        
	        <li class="active">
	            <a href="#s1">分类</a>
	                    <ul class="submenu">
	                        <li>
	                        <a class="category-link" href="/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/">强化学习</a></li><li><a class="category-link" href="/categories/%E6%95%B0%E5%AD%A6/">数学</a></li><li><a class="category-link" href="/categories/%E7%AE%97%E6%B3%95/">算法</a></li><li><a class="category-link" href="/categories/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/">自然语言处理</a></li><li><a class="category-link" href="/categories/%E9%9A%8F%E7%AC%94/">随笔</a>
	                    </ul>
	        </li>
	        
	        <!-- archives  归档   --> 
	        
	        
		        <!-- Pages 自定义   -->
		        
		        <li>
		            <a href="/tags/" title="标签">
		                标签
		            </a>
		        </li>
		        
		        <li>
		            <a href="/gallery/" title="相册">
		                相册
		            </a>
		        </li>
		        


            </ul>
            <!-- icons 图标   -->
			<ul class="icons">
                    
                    <li>
                        <a title="github" href="https://github.com/krystalan" target="_blank" rel="noopener">
                            <i class="icon fa fa-github"></i>
                        </a>
                    </li>
                    
                    <li>
                        <a title="500px" href="https://www.zhihu.com/people/krystalzhu-an" target="_blank" rel="noopener">
                            <i class="icon fa fa-500px"></i>
                        </a>
                    </li>
                    
			</ul>
</nav>

        <div id="main" >
            <div class ="post_page_title_img" style="height: 25rem;background-image: url(/img/30.jpg);background-position: center; background-repeat:no-repeat; background-size:cover;-moz-background-size:cover;overflow:hidden;" >
                <a href="#" style="padding: 4rem 4rem 2rem 4rem ;"><h2 >多模融合</h2></a>
            </div>
            <!-- Post -->
            <div class="typo" style="padding: 3rem;">
                <p>因为最近有相关工作需要用到多个模态特征的融合信息，所以简单调研一下多模融合的一些方法。<br>参考资料：</p>
<blockquote>
<p>1、<u><a href="https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.19678/j.issn.1000-3428.0057370" target="_blank" rel="noopener">《面向深度学习的多模态融合技术研究综述》</a></u><br>2、2019 IEEE ICASSP : <u><a href="https://arxiv.org/abs/1810.03414" target="_blank" rel="noopener">Dense Multimodal Fusion for Hierarchically Joint Representation</a></u><br>3、<u><a href="https://zhuanlan.zhihu.com/p/93125122" target="_blank" rel="noopener">《【NLP笔记】多模态中NLP与CV融合的一些方式》</a></u><br>4、<u><a href="https://zhuanlan.zhihu.com/p/53511144" target="_blank" rel="noopener">《这可能是「多模态机器学习」最通俗易懂的介绍》</a></u><br>5、Multimodal Paper List（from CMU）：<a href="https://github.com/pliang279/awesome-multimodal-ml" target="_blank" rel="noopener">https://github.com/pliang279/awesome-multimodal-ml</a></p>
</blockquote>
<h1 id="1-三种模型无关的多模融合方法"><a href="#1-三种模型无关的多模融合方法" class="headerlink" title="1.三种模型无关的多模融合方法"></a>1.三种模型无关的多模融合方法</h1><h2 id="1-1-直接融合方法"><a href="#1-1-直接融合方法" class="headerlink" title="1.1 直接融合方法"></a>1.1 直接融合方法</h2><p><img src="/images/MM/1.jpg" alt="直接融合方法"><br>先从每种模态中分别提取特征的表示，然后在特征级别融合，能够较好地捕捉特征之间的关系，但容易过度拟合训练数据。</p>
<h2 id="1-2-决策融合方法"><a href="#1-2-决策融合方法" class="headerlink" title="1.2 决策融合方法"></a>1.2 决策融合方法</h2><p><img src="/images/MM/3.jpg" alt="决策融合方法"><br>对于每一个模态都做一个单一的模型，最后将不同的模型产生的结果进行融合，有点集成学习思想的味道。  </p>
<h2 id="1-3-混沌融合方法"><a href="#1-3-混沌融合方法" class="headerlink" title="1.3 混沌融合方法"></a>1.3 混沌融合方法</h2><p><img src="/images/MM/4.jpg" alt="混沌融合方法"><br>有的模态特征会先行融合，有的则在最后决策的时候对总体的输出产生一定的影响。</p>
<h1 id="2-详细讨论直接融合方法"><a href="#2-详细讨论直接融合方法" class="headerlink" title="2.详细讨论直接融合方法"></a>2.详细讨论直接融合方法</h1><p>大部分的工作主要都是直接融合方法的思路，直接融合方法又可分为联合架构与协同架构。  </p>
<h2 id="2-1-联合架构"><a href="#2-1-联合架构" class="headerlink" title="2.1 联合架构"></a>2.1 联合架构</h2><p><img src="/images/MM/5.jpg" alt="联合架构"><br>每个单一模态通过单独编码之后被映射到共享子空间当中。联合架构对每个单模态的语义完整性有较高的要求，数据不完整或者错误都将会在后期融合中被放大。<br>优点：融合方式简单，且共享子空间通常具有语义不变性，有助于在机器学习模型中将知识从一种模态转换到另一种模态。<br>缺点：各单模态语义完整性不易在早期发现和处理。</p>
<p>联合架构又可分为：早期融合（EMF：Early Multimodal Fusion）、中期适度融合（IMF：Intermediate Multimodal Fusion）以及混合融合（DMF：Dense Multimodal Fusion）。<br><img src="/images/MM/2.jpg" alt="直接融合方法的三种分类"><br>（1）早期融合<br>直接将两种模态的特征向量进行拼接（Concatenate），之后利用一些非线性变换层得到高层特征信息。由于拼接不同模态的特征方法过于简单，且过早地融合多种模态的特征，因此不能够很好地捕获不同模态之间的复杂关系。<br>（2）中期适度融合<br>在提取每个单一模态高层特征之后加上一个联合隐层。虽然这种方法在许多任务中已经表现的挺好的了，但它只在一个层次上进行了融合。<br>（3）混合融合<br>融合不同层次的单一模态的特征从而形成最后的表示，使得最终得到的特征向量更加健壮。  </p>
<h2 id="2-2-协同架构"><a href="#2-2-协同架构" class="headerlink" title="2.2 协同架构"></a>2.2 协同架构</h2><p><img src="/images/MM/6.jpg" alt="协同架构"><br>将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束。</p>
<h1 id="3-多模态融合当中的一些问题"><a href="#3-多模态融合当中的一些问题" class="headerlink" title="3.多模态融合当中的一些问题"></a>3.多模态融合当中的一些问题</h1><p>（1）学习程度不统一<br>实际上，多个模态进行融合，训练网络的时候，不同模态之间训练的程度可能不一样，例如模态1可能经过10个epoch就已经达到了最优的结果，而模态2则要在20epoch达到最好效果，这样一个模态学习好了，另一个模态却是欠拟合；而当另一个模态学习好的时候，之前的模态变成了过拟合。因此这里面存在着学习程度不统一问题。<br>（2）过拟合<br>因为融合多个模态的特征之后，网络的参数就会上升，从而导致模型更容易过拟合。  </p>
<p>解决方法：  </p>
<blockquote>
<p>2020 CVPR：<u><a href="https://arxiv.org/abs/1905.12681" target="_blank" rel="noopener">What Makes Training Multi-Modal Classification Networks Hard?</a></u><br>相关解读：<u><a href="https://zhuanlan.zhihu.com/p/137104163" target="_blank" rel="noopener">Training Multi-modal Classification Networks</a></u>  </p>
</blockquote>
<p>对每一种模态在训练过程当中loss乘以一个权重即可调整更新的快慢，这个权重是根据training loss以及val loss进行计算的，用于评估模型训练所处的程度，也能侧面反映出训练的质量。</p>
<p>（3）静态融合  </p>
<blockquote>
<p>2019 arXiv：<u><a href="https://arxiv.org/abs/1911.03821" target="_blank" rel="noopener">Dynamic Fusion for Multimodal Data</a></u>  </p>
</blockquote>
<p>该文中指出：现有的多模融合方式其实都是人为定义好的，神经网络自身并不能自由地决定以什么样的方式结合模态间的特征，于是该文提出了Transfusion网络让模型自己提取模态间的特征。<br><img src="/images/MM/7.jpg" alt="Transfusion"><br>简单来说，就是将多个模态特征向量先进行拼接（concatenate）得到Zmk向量，再通过一个变换层，得到Zmt向量。之后作者使用Zmk和Zmt之间的MSE Loss来训练网络，需要注意的是Zmt向量的维度应当低于Zmk，所以需要用零进行填充，具体Loss表达式如下：<br><img src="/images/MM/8.jpg" alt="Transfusion">   </p>
<p>该篇工作作者表示：这样可以激励网络去压缩不同模态所提供的全部信息并尽可能的保留大部分语义。</p>

            </div>

            <!-- Post Comments -->
            

        </div>
        <!-- Copyright 版权 start -->
                <div id="copyright">
            <ul>
                <li>&copy;2020 北望你的安. 版权所有</li>
            </ul>
            
                <span id="busuanzi_container_site_pv">本站总访问量<span id="busuanzi_value_site_pv"></span>次，</span>
				<span id="busuanzi_container_site_uv"> 访客数 <span id="busuanzi_value_site_uv"></span> 人. </span>
			
			<br>
			<span>友情链接：<a href='http://www.demilab.cn' target='_blank'>DEMI实验室</a>&nbsp;&nbsp;&nbsp;<a href='http://zd11024.cn/' target='_blank'>ZD</a></span>
        </div>
    </div>
</body>



 	
</html>
